Захаров В.П.
ПРОБЛЕМЫ КЛАССИФИКАЦИИ
ИНФОРМАЦИОННЫХ РЕСУРСОВ ИНТЕРНЕТ
Специальные поисковые службы, функционирующие в сети Интернет, делятся на два основных типа: поисковые системы (или ”поисковые машины" search engines) и каталоги (directories). Поисковые службы-каталоги обеспечивают поиск на основе специальных указателей, представляющих собой тематические иерархические ”деревья". Сама гипертекстовая природа сети говорит о том, что иерархические схемы классификации естественным образом подходят для организации и просмотра данных на Web-серверах.
Различные классификационные схемы отличаются по объему и методологии их составления. Объединяют их назначение, простота использования, независимость от языков, на которых представлены документы. Так получилось, что главные сетевые службы-каталоги базируются на собственных схемах классификации. В качестве примера можно привести классификационные схемы службы ”Yahoo!", российской службы ”Созвездие Интернет" и др.
Однако развитые тематические классификации были созданы в библиотечной сфере еще в докомпьютерную эру и могут быть использованы сегодня в том числе и для классификации и поиска информационных ресурсов в сети Интернет. Многие из них отличает такое преимущество, как всеобщность, универсальность. В качестве примеров универсальных языков можно назвать такие библиотечные классификации, как УДК, ББК, Рубрикатор ГАСНТИ, Классификацию Дьюи, Классификацию Библиотеки конгресса США и другие национальные классификации.
Среди так называемых ”доморощенных" (home-grown) схем классификации, появившихся одновременно с появлением служб-каталогов, на первом месте стоит схема крупнейшей сетевой информационной службы ”Yahoo!", появившейся в 1994 г. И, пожалуй, только одна эта схема может выдержать сравнение с традиционными библиотечными классификациями. Она содержит 14 главных категорий, а общее число разделов и подразделов составляет порядка 20000. Поэтому необходимость разработки специальных схем классификации вызывает у нас большие сомнения. Коренных отличий между общепринятыми универсальными библиотечными схемами и специальными нет. Исследование, проведенное американской исследовательницей Визен-Гетц, показало, что из 50 наиболее популярных категорий системы ”Yahoo!" только 4 не нашли явных соответствий в Классификации Дьюи или в Классификации Библиотеки конгресса (БК). Но так получилось, к сожалению, что созданием и развитием сетевых служб занимались и занимаются люди, далекие от библиотечного дела.
Тем не менее библиотечные классификации все же нашли применение в ряде поисковых службах Интернет. Среди классификаций, чаще других используемых в сетевых поисковых службах, прежде всего, следует назвать Десятичную классификацию Дьюи и УДК.
Распространенность Классификации Дьюи в англо-американском мире, а также ее достоинства: универсальность, простота (используются только десятичные цифры и точка), большая частота обновлений по сравнению с другими универсальными классификациями, интеграция с другими классификациями (Классификация БК) и языками предметных рубрик (ПР БК) способствовали тому, что и в Интернет для классификации информационных ресурсов и организации схемы просмотра она используется довольно часто. Не менее 15 служб Интернет применяют эту классификацию. Среди них на первом месте следует упомянуть службу NetFirst известной межбиблиотечной сети OCLC.
УДК используют, по меньшей мере, 5 поисковых служб. В числе возможных причин не столь большой популярности УДК в индексации ресурсов Интернет можно назвать ее некоторую устарелость, неадекватность, выражающуюся в отставании от развития новых и существующих областей знания, сложность в использовании (сложная структура индексов, основные таблицы комбинируются со вспомогательными, используется большое число знаков пунктуации), а также слабость в описании отдельных предметных областей (таких, например, как медицина и здравоохранение).
Следующая проблема, требующая решения это автоматизация процессов классификации в поисковых службах. Поскольку классификация является процессом трудоемким и дорогим, то по мере роста Интернет поток так называемых Web-страниц, не проходящих через этап ”ручного" индексирования, все более и более увеличивается (то же можно сказать и о библиотеках и информационных службах, где постоянно растет доля документов, не проходящих через этап аналитико-синтетической обработки). Поэтому по мере роста, развития и совершенствования сети Интернет возрастает и интерес к автоматизированным методам классифицирования информационных ресурсов сети.
В целом задача автоматической классификации удовлетворительного решения пока что не нашла. Эксперименты показали, что для разных предметных областей точность автоматической классификации составляет 46-86%. Это объясняется как трудностями, присущими приписному индексированию, так и разнообразием различных классификационных схем, существующих в разных странах для разных целей. Пока что автоматические методы можно рассматривать как вспомогательные средства в работе индексаторов и каталогизаторов. В то же время можно сказать, что есть обнадеживающие подходы и результаты.